提供者:卢梦依
下载地址:http://dataju.cn/Dataju/web/datasetInstanceDetail/78
简介
数据集概述
JRC Names 是一个跨语言实体名称语料库,该语料库包含了大量跨语言人名和组织名称(称之为“实体”),包括不同语言的实体名称,包括汉语、英语、拉丁语、希腊语、阿拉伯语、斯拉夫语、日本语等。2016年之后,JRC Names还关联了其它附加信息,如每个实体在每种语言中出现的频率和时间段等。
数据来源
https://ec.europa.eu/jrc/en/language-technologies/jrc-names。JRC Names 实体专有名词是欧洲媒体监控(EMM)通过每天分析约22万条新闻报道所产生的。从2004年以来,分析了数以百万计的新闻文章,最多可以使用21种语言,识别实体(主要是人员,组织,事件名称等)的名称,并检测其中的哪一种新发现的名字是彼此的变体拼写。因此,JRC Names 中的大多数命名变体都是在现实生活中采集的(包括频繁的拼写错误)。此外,对于实体集合的一个子集,软件会自动从维基百科的跨语言链接中提取许多其他语言(例如中文,泰语,日语,…)的拼写变体。对于非常频繁或重要的名称,另外手动验证命名实体资源。由于JRC名称主要是自动生成的,所以会包含一些错误。
文件类型
多个文件
文件大小
756.00Mb
用处
JRC实体专有名词,可用于查找命名实体,即使它们拼写不同,但它在计算机处理文本信息过程中也能识别,可用于例如,用于文本挖掘。该工具具有多种用途并解决了各种问题,其中包括:
1.当搜索数据库,互联网和其他存储库时,正确的名称是一个问题,因为通常找不到搜索名称的变体。这导致对文档,图像和视听内容的存储库的非最佳使用和利用。 JRC-Names允许标准化名称,从而改进检索;
2.机器翻译在翻译实体专有名词时也存在问题,因为它们不应像其他单词一样翻译;利用JRC-Names可以在翻译过程之前提取名称,并且可以用目标语言重新插入外语变体来解决这个问题;
3.两个不同语言中的实体列表通常用于学习音译规则;
4.实体可以在文本中识别和标记,以便在训练机器学习命名实体识别系统中直接利用; 5.数据来源于多国国家,可以减少不同国家观点的偏见; 6.命名实体识别对于意见挖掘的计算语言学任务,共同参考解析,总结,主题检测和跟踪,跨语言的相关文档的跨语言链接等都是有用的。
统计信息
JRC Names包含EMM实体数据库中一些重要的实体,如频繁搜索或手动验证或在维基百科上发现的实体。JRC名称的第一个版本(2011年9月)包含约205,000个不同的已知实体的名称,以及这些实体的大致相同数量的变体拼写。此外,它包含这些名称的许多形态上变形的变体。截至2016年3月,该资源已增至307,000个不同实体,另有333,000个变体。EMM每天都会识别新的名称,还可以从JRC的网页上每天下载包含最近发现的名称和名称拼写的文件。截至2011年7月,数据库包括27个不同脚本中拼写的名称。最常用的是拉丁语(包括英语和大多数其他欧洲语言),西里尔语(例如俄语和保加利亚语),阿拉伯语(包括波斯语),日语(汉语,平假名和片假名)和汉语汉语(简体中文)。JRC名称中的64%的名称没有额外的拼写变体。对于28%的名字,JRC名称有两到三个拼写。有3760个实体有10个拼写或更多,37个实体有超过100个拼写变体。具有最多拼写变体的名字是Muammar Gaddafi(413个拼写),Mikhail Saakashvili(256)和Mahmoud Ahmadinejad(246)。
相关论文
1.Steinberger Ralf, Bruno Pouliquen, Mijail Kabadjov, Jenya Belyaeva & Erik van der Goot (2011).
JRC-Names: A freely available, highly multilingual named entity resource. Proceedings of the 8th International Conference Recent Advances in Natural Language Processing (RANLP). Hissar, Bulgaria, 12-14 September 2011.
2.Ehrmann Maud, Guillaume Jacquet & Ralf Steinberger (2016). JRC-Names: Multilingual Entity Name Variants and Titles as Linked Data. Semantic Web Journal (March 2016).
3.STEINBERGER Ralf,ATKINSON Martin,GARCIA DOMINGO Teofilo,VAN DER GOOT Erik
LINGE Jens,MACMILLAN Charles,TANEV Hristo,VERILE Marco,WAGNER Gerhard(2017)
EMM: Supporting the Analyst by Turning Multilingual Text into Structured Data
4.JACQUET Guillaume,EHRMANN Maud,STEINBERGER Ralf,VAEYRYNEN Jaakko(2016).Cross-lingual linking of Multi-word Entities and their corresponding Acronyms.
5.王志娟, 李福现. 跨语言命名实体翻译对抽取的研究综述[J]. 计算机科学, 2017, 44(s1):14-18.
6.胡亚楠, 舒佳根, 钱龙华,等. 基于机器翻译的跨语言关系抽取[J]. 中文信息学报, 2013, 27(5):191-198.
7.吴丹, 何大庆, 陆伟. 跨语言信息检索中的命名实体识别与翻译[J]. 图书情报知识, 2012(3):13-19.